NBC News | 2024-02-04 | 16:06:35

Защо генерираното от AI аудио е толкова трудно за откриване

Фалшивото и подвеждащо съдържание, създадено от изкуствен интелект, бързо се превърна от теоретична заплаха в стряскаща реалност. Технологията за създаване на убедителен аудиозапис на човек, който говори, непрекъснато се подобрява и е широко достъпна с просто онлайн търсене.

Самото съществуване на технологията и трудността при откриване на съдържание създадено от него, вече причинява хаос.

През януари роботизирано обаждане от фалшив президент Джо Байдън беше насочено към гласоподавателите на демократите в Ню Хемпшир. Роджър Стоун наскоро използва програма за откриване на изкуствен интелект в опит да се дистанцира от запис, който изглежда включва неговия глас. А профсъюзът на директор на гимназия предположи, че AI може би е виновен за запис, в който той изглежда прави расистки коментари. Районът все още разследва.

Въпреки че се появиха десетки инструменти и продукти, за да се опитат да открият аудио, генерирано от изкуствен интелект, тези програми по своята същност са ограничени, казаха експерти пред NBC News, и няма да го направят предоставя сигурен начин за всеки бързо и надеждно да определи дали звукът, който чува, е от истински човек.

Системите за откриване на Deepfake работят много по-различно от начина, по който хората слушат. Те анализират аудио проби за артефакти като липсващи честоти, които често остават, когато аудиото се генерира програмно. Често те се фокусират върху конкретни аспекти на речта, като например как говорещият изглежда диша или колко се повишава и намалява височината на гласа им.

Реалност Defender, известна компания за откриване на deepfake, казва, че използва AI за откриване на AI. Точно както генеративният изкуствен интелект работи, като обучава алгоритми върху огромни количества реални, съществуващи данни, за да произвежда реалистични нови медии, служителите на Reality Defender захранват неговия алгоритъм както с автентично, така и с генерирано от AI съдържание. Бен Колман, главен изпълнителен директор на компанията, каза, че компанията ясно етикетира какво е истинско и какво е фалшиво, надявайки се, че системата може да се научи да оценява колко вероятно е нещо да бъде генерирано от AI.

„Ние никога не казваме 100%“, каза Колман пред NBC News. „Нашата най-висока вероятност е 99%, защото никога не разполагаме с основната истина. Така че това е напълно вероятностно“, каза той.

Огромният набор от човешки гласове и езици затрудняват тази работа, каза Колман.

„С гласове , това е население, разпределено по региони, езици, диалекти и възраст. Така че трябва да мислим за всяка една променлива,” каза той.

Компанията майка на NBC News, Comcast, е инвеститор в Reality Defender.

С такава нетествана и бързо развиваща се индустрия има малко показатели за измерване на надеждността на инструмента за откриване на deepfake.

Но софтуерът е присъщо ограничен начин за откриване на deepfake, каза Патрик Трейнър , професор от Университета на Флорида, който специализира в компютърни науки и телефонни мрежи.

Повечето програми за откриване са обучени да идентифицират съществуващи дълбоки фалшиви алгоритми, което ги прави крачка зад новите иновации, каза той.

„Машинното обучение е наистина добро в това да ви разкаже за нещо, което е виждало преди, но не е толкова добро в разсъжденията за неща, които не е виждало“, каза Трейнър.

„В това пространство има много шум и аз съм изключително скептичен. Проблемите са толкова трудни“, каза той.

Нийл Джан, изследовател на машинно обучение в университета в Рочестър, каза, че е трудно да се прецени колко добре работят специфични инструменти за откриване в космоса предвид липсата на съществуващите бенчмаркове, но че опциите там са „по-добри от нищо“.

„Има огромно несъответствие във финансирането между компаниите, които се надпреварват да направят приемливи дълбоки фалшификации, спрямо тези, които се опитват да ги открият,“ той каза. „Трудно е да се получи финансиране за откриване, много лесно е да се получи финансиране за широкоезични модели и генеративен AI.“

Това е отразено и в академичните изследвания, които се движат толкова бавно, че може да не сте в крак с това колко бързо се развива AI индустрията. Много инструменти за откриване на deepfake — особено в академичните области — разчитат на стари данни, които не отговарят на текущата реколта от инструменти за производство на deepfake, каза той.

„Тези видове инструменти за откриване могат да постигнат много добра производителност на определени масиви от данни, но не може да се представи толкова добре в реалния свят,” каза Джан. Той възлага на Министерството на търговията да издаде насоки на американските компании за изкуствен интелект за това как трябва да поставят „воден знак“ на медиите, които произвеждат, така че да е лесно да се каже, че не са автентични. Но подобни насоки все още не са публични и остава да се види колко инструменти ще ги следват.

Този регламент, който все още не е влязъл в сила, вече е зад индустрията. Има изобилие от компании, които предлагат услуги за преобразуване на текст в говор, които имитират истински гласове безплатно или евтино.

„Ако просто търсите базирана на изкуствен интелект фалшива реч, ще получите десетки търсения веднага“, каза Вандана Джанеджа, професор по информационни системи в Университета на Мериленд, окръг Балтимор. „Почти престъпно е, че всички тези неща са там без никакви предпазни огради.“

Хани Фарид, професор в Калифорнийския университет, Бъркли, който е специалист по дигитална криминалистика, анализ и дезинформация, каза, че докато софтуерният анализ може да помогне, най-добрият начин за надеждно идентифициране на deepfakes е комбинация от експертен анализ, отчитане на произхода на аудиото и критично мислене за контекста на записа.

Въпреки че много експерти не виждат методите за откриване като надеждни, все още има знаци, които хората могат да чуят, за да разберат дали даден аудиозапис е синтетичен. Настоящите дълбоки фалшификати рядко включват човек, който си поема дъх между думите, и често неестествено разпределят всяка дума равномерно, за разлика от начина, по който истинските хора говорят.

„Трябва да се върнем към нещо по-просто — каза Фарид. „Кой публикува това? надежден ли е? Звучи ли ви правилно, че Джо Байдън ви казва да не гласувате? Тейлър Суифт ви казва, че раздава кулинария? Здравият разум помага много.”

Кевин Колиър

Източник: nbcnews.com

Последвайте ни в

Свързани новини

защо генерираното генерираното аудио аудио толкова толкова трудно трудно откриване защо генерираното аудио толкова трудно откриване

Коментари

Защо генерираното от AI аудио е толкова трудно за откриване

Свързани новини

Коментари

Подобни новини

Топ новини

Актуални новини

Още новини

Информация